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(57) Abstract 

The text to be classified is compared with the contents of a relevance lexicon in which the significant words of the texts to be 
classified are stored according to text class and their relevance for the text classes. The blurred quantity (fuzzy quantity) which indicates 
the occurrence per text class of the significant words of the text to be classified and their relevance for the text class is calculated. A 
probability calculation determines the degree of probability with which the fuzzy quantity occurs per class for the class in question. The 
class with the highest degree of probability is selected and the text is assigned to this class. 



(57) Zusammenfassung 

Der zu klassifizicrende Text wird mit dem Inhalt cincs Rclcvanzlexikons verglichen, in dem die signifikanten Worter der zu 
klassifizierenden Texte pro Textklasse und deren Relevanz fUr die Textklassen gespeichert ist. Es wird die unscharfe Menge (Fuzzymenge) 
bercchnet, die fur die signifikanten Worte des zu klassifizierenden Textes deren Auftreten pro Textklasse und deren Relevanz fur die 
Textklasse angibt. Mit einer Wahrscheinlichkeitsberechnung wird ermittelt, mit welcher Wahrscheinlichkeit die Fuzzymenge pro Klasse fur 
die entsprechende Klasse auftritt. Die Klasse mit der hochsten Wahrscheinlichkeit wird ausgewahlt und dieser Klasse der Text zugeordnet. 
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Beschreibung 

Verfahren zur automat is chen Klassif ikation eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 
5 digitale Daten 

Aus [l] ist ein System bekannt, mit dem z. B. Geschaf tsbrief - 
dokumente kategorisiert werden konnen und dann in elektroni- 
scher oder Papierform weitergeleitet werden konnen, bzw. ge- 

10 zielt abgelegt werden konnen. Dazu enthalt das System eine 

Einheit zur Layout segment ierung des Dokumentes, eine Einheit 
zur optischen Texterkennung, eine Einheit zur Adressenerken- 
nung und eine Einheit zur Inhaltsanalyse und Kategorisierung . 
Fur die Segment ierung des Dokumentes wird ein gemischter bot- 

15 tom-up- und top-down-Ansatz benutzt, der als Einzelschritte 
die 

• Erkennung der zusammenhangenden Komponenten, 

• Erkennung der Textlinien, 

• Erkennung der Buchstabensegmente , 
2 0 • Erkennung der Wort segment e und 

• Erkennung der Absatz segment e umfa£t. 

Die optische Texterkennung ist in drei Teile gegliedert: 

• Buchstabenerkennung in {Combination mit lexikonbasierter 
2 5 Wortverif ikation, 

• Worterkennung, 

mit der Klassif izierung aus Buchstaben und wortbasierter 
Erkennung . 

30 Die Adr ess erkennung wird mit einem unif ikationsbasierten Par- 
ser durchgef uhrt , der mit einer attributierten kontextf reien 
Grammatik fur Adressen arbeitet . Im Sinne der AdreSgrammatik 
korrekt geparste Textteile sind dementsprechend Adressen. Die 
Inhalte der Adressen werden uber Merkmalsgleichungen der 

35 Grammatik bestimmt. Das Verfahren wird in [2] beschrieben. 



WO 97/38382 PCT/DE97/00583 



Fur die Inhaltsanalyse und Kategorisierung werden Informati- 
on-Retrieval Techniken zur automat ischen Indexierung von Tex- 
ten benutzt . Im einzelnen sieht dies wie f olgt aus : 

5 • Morphologische Analyse der Worter 

• Eliminierung von Stoppwortern 

• Erstellung einer Wortstatistik 

• Berechnung des Indextermgewichts mit aus dem Inf ormations- 
Retrieval bekannten Formeln, wie z. B. der inversen Doku- 

10 menthauf igkeit . 

Mittels der so berechneten Indextermgewichte wird nun fur al- 
le Kategorien eine dreistufige Liste signif ikanter Worter er- 
mittelt, welche die jeweilige Kategorie charakterisiert . Wie 
15 in [l] beschrieben, werden diese Listen nach der Trainings* 
phase noch manuell iiberarbeitet . 

Die Kategorisierung eines neuen Geschaf tsbrief es erfolgt dann 
durch den Vergleich der Indexterme dieses Briefes mit den Li- 

20 sten der signif ikanten Worter fur alle Kategorien. Die Ge- 

wichte der im Brief enthaltenen Indexterme werden je nach Si- 
gnifikanz mit einer Konstanten multipliziert und aufsummiert. 
Durch Teilen dieser Sutnme durch die Anzahl der Indexterme im 
Brief ergibt sich somit fur jede Klasse eine Wahrscheinlich- 

25 keit. Die genauen Berechnungen ergeben sich aus [3] . 

Ergebnis der Inhaltsanalyse ist dann eine nach Wahrschein- 
lichkeiten sortierte Hypothesenliste . 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein 
3 0 Verfahren anzugeben, nach dem die Inhaltsanalyse des Textes 
und damit die Textklassif ikation verbessert wird. Dabei wird 
davon ausgegangen, da£ der Text des Dokumentes bereits als 
digitale Daten vorliegt, die dann weiterverarbeitet werden. 

3 5 Diese Aufgabe wird gemaS den Merkmalen des Patentanspruches 1 
gelost . 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspruchen. 

Ein Anwendungsf all des Verfahrens ist die automat ische Dia- 
5 gnose aus medizinischen Befunden. Fasst man einen medizini- 
schen Befund als Text und eine Krankheit als eine Klasse auf, 
so kann man das Problem der automatischen Diagnose mit dem 
Verfahren der Textklassif ikat ion losen. Ein wesentlicher Vor- 
teil des Verfahrens ist, da£ es aus einer Menge von Befunden, 

10 deren Diagnose bekannt ist, automatisch und unuberwacht das 

zur Klassif ikation notige Wissen lernt . Fut den Arzt ist kein 
zusatzlicher Aufwand notig, er mufi nur wie gewohnt den Befund 
schreiben. Gelernt wird aus den bereits vorhandenen Befunden. 
Nach der Trainingsphase wird dann mit Hilfe der gelernten 

15 wissensquelle und Techniken der Fuzzy-Mengen ein Befund klas- 
sifiziert. Die dem Befund zugeordnete Klasse entspricht der 
diagnostizierten Krankheit. 

Es wird zunachst davon ausgegangen, daS der zu untersuchende 
20 Text bereits in Form von ASCII-Daten vorliegt. 

Vor der inhaltlichen Analyse eines Textes wird eine morpholo- 
gische Analyse durchgef uhrt , die im ersten Schritt alle Wor- 
ter lemmatisiert (d.h. auf ihre Stammformen reduziert) und 
25 dann mit einem stochastischen Tagger lexikalische Mehrdeutig- 
keiten auf lost. Fur die Lemmatisierung kann ein Verfahren 
nach [4] verwendet werden . Eine Beschreibung des verwendeten 
Taggers kann [5] entnommen werden. Ausgangspunkt fuer alle 
weiteren Bearbeitungsschritte ist immer der getaggte Text. 

30 

Die Textklassif ikation ist trainingsbasiert . Aus einer Menge 
von Trainingstexten, deren Klassen bekannt sind, wird die 
Haufigkeit von Klassen, von Wortern insgesamt und von Wortern 
in den jeweiligen Klassen gezahlt . Mit diesen Haufigkeiten 
3 5 wird dann die empirische Korrelation zwischen einem Wort und 
einer Klasse nach Pearson [6] berechnet . Diese Korrelation 
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wird fur alle Worter und alle Klassen berechnet und gilt als 
Relevanz eines Wortes fur eine Klasse. 

Berucksichtigt werden nur Korrelationen grofier einem Wert 
5 r_max, der sich aus der Priifung der Unabhangigkeit auf einem 
Signif ikanzniveau von z. B. 0.001 ergibt (siehe hierzu z. B. 
[7] ) . Als Ergebnis erhalt man ein Lexikon, das die Relevanzen 
der Worter fiir die Klassen enthalt . 

10 Ein Text wird nach dessen morphologischer Analyse mit Hilfe 
dieses Relevanzlexikons wie folgt klassif iziert : Fur jede 
Klasse wird eine unscharfe Menge ermittelt, die alle relevan- 
ten Wortern enthalt. Die Zugehorigkeitsfunktion iiA der un- 
scharfen Menge entspricht gerade dem KorrelationsmaS von 

15 Pearson. Urn die wahrscheinlichste Klasse zu erhalten, wird 

fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen Menge 
von relevanten Wortern berechnet. Dazu wird die in der Fuzzy - 
Theorie gebrauchliche Foirmel aus [81 benutzt, namlich: 

20 prob( A): = Z M A ( X ) • PU) i 

x 

wobei \x h die Zugehorigkeitsfunktion der unscharfen Menge A 
von relevanten Wortern einer Klasse ist und p(x) als p(x ist 
relevant fur A) interpretiert wird: 

p(x ist relevant fur A) := p(A|x) = p(x,A) / p(x) 

25 

Als Ergebnis der Klassif ikation wird die Klasse mit der wahr- 
scheinlichsten Fuzzymenge ausgegeben. 

Weiterbildungen der Erfindung ergeben sich aus den abhangi^en 
3 0 Anspruchen. 

An Hand eines Ausf iihrungsbeispieles wird die Erfindung weiter 
erlautert . Es zeigen 

Figur 1 eine prinzipielle Darstellung des Verfahrens, 
3 5 Figur 2 den Ablauf der Vorbereitung des Textes, 

Figur 3 ein Verfahren zum Trainieren des Systems, 
Figur 4 das Verfahren zur Klassif ikation des Textes. 
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Aus Figur 1 ergibt sich eine prinzipielle Darstellung des 
Verfahrens. Der Text auf einem Papierdokument DOK soil klas- 
sifiziert werden. Zunachst wird das Dokument DOK mit Hilfe 
eines Scanners SC eingescannt und eine Bilddatei BD erzeugt . 
Mit Hilfe des in der europaischen Patentanmeldung 0 515 714 
Al bekannten Verfahrens wird der zu klassif izierende Text in 
einer Layoutsegmentierung SG segmentiert und das Textsegment 
TXT- SG gebildet. Man erhalt wiederum eine Bilddatei, die 
jetzt nur noch den Textteil des Dokumentes enthalt . Die Bild- 
daten dieses Textes werden nun mit OCR in ASCII -Daten umge- 
wandelt . Diese sind in Fig. 1 mit TXT bezeichnet . Mit Hilfe 
eines Trainingslexikons REL-LEX wird die Textklassif ikation 
TXT-K durchgef uhrt , somit eine Klassenhypothese erzeugt, die 
angibt, mit welcher Wahrscheinlichkeit der zu klassif izieren- 
de Text einer bestimmten Klasse zuzuordnen ist . Die Klassen- 
hypothese ist in Fig. 1 mit KL-H benannt . 

Vor der inhaltlichen Analyse des Textes TXT, der in ASCII - 
Format vorliegt, wird eine morphologische Analyse durchge- 
fuhrt. Dazu werden im ersten Schritt alle Worter des Textes 
lemmatisiert , d.h. auf ihre Stammformen reduziert (dies er- 
folgt mit Hilfe eines Lemmatisierers LEM, der den lemmati- 
sierten Text L-TXT liefert) und dann mit einem stochastischen 
Tagger TAG lexikalische Mehrdeutigkeiten auf gelost . Ergebnis 
dieser Behandlung des Textes TXT ist der getaggte Text T-TXT, 
der dann weiterverarbeitet werden kann. Die Funktionsweise 
des Lemmatisierers LEM ist in [4] beschrieben, der Aufbau und 
die Funktion des Taggers in [5] . 

Ausgangspunkt der weiteren Bearbeitungsschritte ist nun der 
getaggte Text T-TXT. 

Bevor die Textklassif ikation durchgefuhrt werden kann, mufi 
eine Trainingsphase vorgesehen werden. In dieser Trainings - 
phase wird ein Relevanzlexikon REL-LEX erzeugt, das spater 
fur die Klassif ikation von Texten verwendet werden wird. Dazu 
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wird aus einer Menge von Trainingstexten TXT - TR , deren Klas- 
sen KL - TXT bekannt sind, die Haufigkeit von Klassen, von Wor- 
tern insgesamt und von Wortern in den jeweiligen Klassen ge- 
zahlt . Dies erfolgt in einer Einheit FR zur Frequenzberech- 
5 nung, in der die Wortf requenzen FR-W und die Klassenf requen- 
zen FR-KL gebildet werden. Mit diesen Haufigkeiten wird die* 
empirische Korrelation zwischen einem Wort und einer Klasse 
nach Pearson [6] berechnet : 



dabei ist : 

N=Anzahl der Trainingstexte, 

V wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
15 Z w=Anzahl der Trainingstexte mit Wort w, 

v c =Anzahl der Trainingstexte der Klasse c. 

Diese Korrelation wird fur alle Worter und alle Klassen be- 
rechnet und gilt als Relevanz REL eines Wortes fur eine Klas- 

20 se. Dabei wird beachtet, da& die Korrelationen nicht zu klein 
werden, es wird somit ein Wert r-max eingefiihrt, der z. B. 
auf einem Signif ikanzniveau 0,001 eingestellt wird [7]. Die 
Ergebnisse, also die Relevanzen eines Wortes fur eine Klasse 
werden in einem Lexikon REL -LEX abgespeichert , das also die 

25 Relevanzen der Worter fur die Klassen enthalt. 

Nachdem das Relevanzlexikon REL-LEX erzeugt worden ist, kann 
nun der zu untersuchende Text T-TXT klassif iziert werden. Da- 
zu werden ausgewahlte Worter des Textes, die von signif ikan- 

3 0 ter Bedeutung sind, aus dem Text mit den im Relevanzlexikon 
REL-LEX vorhandenen Beziehungen zwischen den Wortern und den 
Klassen untersucht und daraus fur den Text und fur jede Klas- 
se eine unscharfe Menge, eine sogenannte Fuzzymenge FUZ-R, 
erzeugt. Diese Fuzzymengen pro Klasse werden in einer Datei 

35 FUZ-KL abgespeichert. Die Fuzzymenge pro Klasse enthalt die 

Worte des Textes, die in der Klasse vorkommen und deren Rele- 
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vanz fur diese Klasse. Aus der Fuzzymenge wird fur jede Klas- 
se die Wahrscheinlichkeit ihrer unscharfen Menge von relevan- 
ten Wortern in einer Einheit PROB berechnet und in einer Da- 
tei PROB-KL abgespeichert . Dazu wird die Zugehorigkeitsf unk- 
tion der unscharfen Menge zu der Klasse bestimmt, die gerade 
dem KorrelationsmaE von Pearson entspricht. Die Wahrschein- 
lichkeit wird nach der in der Fuzzy-Theorie gebrauchlichen 
Formel berechnet, diese Formel ist bereits oben angegeben 
worden und ist aus [8] bekannt . In einer Einheit MAX zur Ma- 
ximumberechnung wird die Klasse ausgewahlt, fur die die hoch- 
ste Wahrscheinlichkeit ausgerechnet worden ist. Dieser wird 
der Text T-TXT zugeordnet . Diese Klasse ist in Figur 4 mit 
TXT - KL benannt. 

Das folgende Anwendungsbei spiel soil das Verfahren erlautern 

News aus der USENET- Newsgruppe de . comp . os . linux .misc sollen 
in die Klassen Drucker, Konf iguration, Netzwerk, Sound, Ex- 
terner Speicher, Video, Software, Entwicklung, Kernel, Kommu 
nikation, Eingabegerate , SCSI , X- Windows und Betriebssystem 
einsortiert werden . 

Der erste Bearbeitungsschritt eines Textes ist die morpholo- 
gische Analyse. Sie transf ormiert z.B. den Satz Beim Starten 
von X kommt mit der Mirage-P32 nur ein weiSer Bildschirm in 
die leTnmatisierte Form: 

0 1 Beim beim prp 

1 2 starten starten vfin 

1 2 starten starten vinfin 

2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 mit mit prp 

5 6 mit mit vprt 

6 7 der d pron 
6 7 der der det 

6 7 der der relpron 
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7 8 Mirage mirage n 

8 9--- 

9 10 P32 p32 n 

10 11 nur nur adv 
5 11 12 ein ein det 

11 12 ein ein vprt 

12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

13 15 Bildschirm. bildschirm. $$$ 
10 13 14 Bildschirm. bildschirm. $$$ 

14 15 . . eosjunkt 

14 15 . . punkt 

15 16 $CR$ $CR $CR$ 

15 Der Tagger lost die Mehrdeutigkeiten bei Kategorien und 
Grundf ormen auf : 

0 1 Beim beim prp 

1 2 starten starten vfin 
2 0 2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 mit mit prp 

6 7 der der det 

2 5 7 8 Mirage mirage n 

8 9--- 

9 10 P32 p32 n 

10 11 nur nur adv 

11 12 ein ein det 

30 12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

14 15 . . eos punkt 

Im Training wurde folgendes Relevanzlexikon trainiert 

3 5 (Ausschnitt) : 

soundkarte n 
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<konf iguration> rlv = 0.012523 
<netzwerk> rlv = -0.033766 
<sound> rlv = 0.716692 
<externer speicher> rlv = -0.005260 

5 

monitor_n 

<video> rlv = 0.606806 

drucker_n 
10 <drucker> rlv = 0.683538 

<software> rlv = 0.014210 

gcc_n 

<entwicklung> rlv = 0.684036 
15 <kernel> rlv = 0.103325 

<kommunikation> rlv = -0.083844 

apsf ilter_n 

<drucker> rlv = 0.561354 

20 

graf ikkarte_n 

<eingabegeraete> rlv = -0.008924 
<konf iguration> rlv = 0.017783 
<scsi> rlv = -0.005854 
25 <video> rlv = 0.501108 

xdm_n 

<eingabegeraete> rlv = 0.023704 
<x-winows> rlv = 0.580419 

30 

scsi_n 

<eingabegeraete> rlv = -0.065260 
<kernel> rlv = -0.026075 
<konf iguration> rlv = 0.117458 
35 <netzwerk> rlv = -0.035671 

<betriebssystem> rlv = -0.063972 
<scsi> rlv = 0.582414 
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<sound> rlv = -0.041297 

<externer speicher> rlv = 0.284832 

<video> rlv = -0.107000 



5 ethernet_n 

<koramunikation> rlv = -0.012769 
<netzwerk> rlv = 0.502532 
<betriebssystem> rlv = 0.014134 



10 

x_n 

<drucker> rlv = -0.073611 
<eingabegeraete> rlv = 0.005764 
<entwicklung> rlv = 0.073568 

15 <kernel> rlv = 0.005127 

<konnnunikatiori> rlv = -0.108931 
<konf iguration> rlv = -0.055763 
<netzwerk> rlv = -0.077721 
<betriebssystem> rlv = -0.046266 

20 <scsi> rlv = -0.054152 

<sound> rlv = -0.037581 
<externe speicher> rlv = -0.081716 
<software> rlv = 0.037474 
<video> rlv = 0.197814 

25 <x-winows> rlv = 0.299126 



mirage_n 

<scsi> rlv = 0.065466 
<video> rlv = 0.221600 

30 

bildschirm_n 

<drucker> rlv = -0.023347 
<eingabegeraete> rlv = 0.036846 
<entwicklung> rlv = -0.022288 
35 <konf iguration> rlv = -0.014284 

<video> rlv = 0.216536 
<x-windows> rlv = 0.269369 
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start en_vinf in 

<kommunikation> rlv = 0.002855 
<konf iguration> rlv = 0.060185 
<betriebssystem> rlv = 0.006041 
<externe speicher> rlv = -0.001856 
<x-windows> rlv = 0.260549 



starten_vf in 

<drucker> rlv = -0.038927 
<entwicklung> rlv = -0.037790 
<kernel> rlv = -0.009309 
<kommunikation> rlv = -0.057605 
<konf iguration> rlv = 0.035588 
<netzwerk> rlv = 0.045992 
<betriebssystem> rlv = -0.003344 
<sound> rlv = -0.019409 
<externe speicher> rlv = -0.043312 
<video> rlv = 0.110620 
<x-windows> rlv = 0.178526 



Nun werden fur die Klassen die Fuzzy-Mengen gebildet : 
Video = {x( 0.1 9 78 14) , mirage ( 0 . 221600 ) , bildschirm ( 0 . 216 53 6 ) } 
X- Windows = 

{starten(0 . 17 8526) ,x(0 .2 9912 6) , bildschirm ( 0 .2693 69) } 
Weiterhin sind bekannt die Wahrscheinlichkeiten der Worter: 



Wort Video X-Windows 

x 0.24 0.19 

mirage 0 . 8 

bildschirm 0.43 0.33 

starten 0.24 0.21 



Hieraus und aus den Zugehorigkeitsf unktionen der Worter be- 
rechnen wir die Wahrscheinlichkeiten der Klassen: 
Prob(Video) = 0.197814*0.24 + 0.221600*0.8 + 0.216536*0.43 
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Prob (X-Windows) = 0.178526*0.21 + 0.299126*0.19 + 
0.269369*0.33 
Prob (Video) = 0.3 
Prob (X- Windows) =0.18 
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Patentanspriiche : 

1. Verfahren zur automat ischen Klassif ikation eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 
5 digitale Daten mit Hilfe eines Rechners, 

• bei dem jede Textklasse durch signifikante Worter definiert 
ist , 

• bei dem in einer Lexikondatei (REL-LEX) fur jede Textklasse 
die signif ikanten Worter und deren Signifikanz fur die 

10 Textklasse gespeichert werden, 

• bei dem ein zuzuordnender Text mit alien Textklassen ver- 
glichen wird und fur jede Textklasse die unscharfe Menge 
(Fuzzymenge) von Wort en in Text und Textklasse und deren 
Signifikanz fur die Textklasse ermittelt wird, 

15 • bei dem aus der Fuzzymenge jeder Textklasse und deren Si- 
gnifikanz fur jede Textklasse die Wahrscheinlichkeit der 
Zurordnung des Textes zur der Textklasse ermittelt wird, 

• bei dem die Textklasse mit der hochsten Wahrscheinlichkeit 
gewahlt wird und dieser der Text zugeordnet wird. 

20 

2. Verfahren nach Anspruch 1, 

• bei dem der zu klassif izierende Text vor der Inhaltsanalyse 
in einem Lemmatisierer (LEM) lemmatisiert wird, 

• bei dem der lemmatiserte Text (L-TXT) einem stochastischem 

2 5 Tagger (TAG) zugefuhrt wird, urn lexialische Mehrdeutigkei- 

ten aufzulosen, 

• und bei dem der getaggte Text (T-TXT) zur Textklassif ikati- 
on verwendet wird. 

3 0 3. Verfahren nach Anspruch 2, 

• bei dem zur Klassif ikation des Textes ein Relevanzlexikon 

(REL-LEX) erzeugt wird, 

• bei dem dazu eine Menge von Trainingstexten, deren Klassen 
bekannt sind, verwendet wird, 

3 5 • bei dem aus dieser Menge die Haufigkeit der Klassen, von 
Wortern und von Wortern in den jeweiligen Klassen gezahlt 
wird, 
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• bei dem rait diesen Haufigkeiten eine erapirische Korrelation 
zwischen einem Wort und einer Klasse berechnet wird f 

• bei dem diese Korrelation fur alle Worter und alle Klassen 
berechnet wird und das Ergebnis der Berechnung als Relevanz 
eines Wortes fur eine Klasse in einer Datei gespeichert 
wird, die als Relevanzdatei oder Relevanzlexikon (REL-LEX) 
verwendet wird. 

4 . Verf ahren nach Anspruch 3 , 

bei dem die Korrelation (Relevanz ) zwischen einem Wort und ei- 
ner Klasse nach f olgender Formel erf olgt : 



5 dabei ist : 

N=Anzahl der Trainingstexte , 

X wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
v w=Anzahl der Trainingstexte mit Wort w, 
Vc=Anzahl der Trainingstexte der Klasse c. 



5. Verf ahren nach Anspruch 4, 

bei dem nur Korrelationen > einem gewahlten Wert r-max be- 
rucksichtigt werden, der auf einem Signif ikanzniveau von z. 
5 B. 0.001 festgelegt wird. 

6 . Verf ahren nach Anspruch 5 , 

• bei dem der zu untersuchende Text (T-TXT) und das Relevanz- 
lexikon (REL-LEX) dazu verwendet wird, um fur jede Klasse 

0 die unscharfe Menge (Fuzzymenge) der signif ikanten Worter 

pro Klasse und deren Relevanz pro Klasse zu ermitteln, 

• bei dem aus der Fuzzymenge pro Klasse und deren Relevanz 
fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen 
Menge von relvanten Wortern berechnet wird, 



rlv(w in c):=r(w,c) = 




0 
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• bei dem aus den Wahrscheinlichkeiten pro Klasse die Klasse 
mit der maximalen Wahrscheinlichkeit ermittelt wird und 
dieser Klasse der Text zugeordnet wird. 

5 7. Verfahren nach Anspruch 6, 

bei dem die Berechnung der Wahrscheinlichkeit nach der Formel 

prob(A): = S^ A (x)-p(x), 
x 

10 

erfolgt, wobei fi A die Zugehdrigkeitsf unktion bedeutet, die 
angibt, in wieweit die Fuzzymenge einer Klasse zugeordnet 
wird und die gerade dem KorrelationsmaE nach obiger Formel 
entspricht . 

15 

8 . Verwendung des Verf ahrens nach einem der vorhergehenden 
Anspriiche zur automatischen Diagnose aus medizinischen Befun- 
den, 

bei dem medizinische Befunde als Text und eine Krankheit als 
20 eine Klasse aufgefafit wird 

bei dem in einer Trainingsphase das zur Klassif ikation erfor- 
derliche Wissen aus einer Menge von Befunden, deren Diagnose 
bekannt ist, automatisch gelernt wird 

und bei dem ein neuer Befund nach der Technik der Fuzzymengen 
25 klassif iziert wird. 
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